This paper focuses on the broadcast of information on robot networks with stochastic network interconnection topologies. Problematic communication networks are almost unavoidable in areas where we wish to deploy multi-robotic systems, usually due to a lack of environmental consistency, accessibility, and structure. We tackle this problem by modeling the broadcast of information in a multi-robot communication network as a stochastic process with random arrival times, which can be produced by irregular robot movements, wireless attenuation, and other environmental factors. Using this model, we provide and analyze a receding horizon control strategy to control the statistics of the information broadcast. The resulting strategy compels the robots to re-direct their communication resources to different neighbors according to the current propagation process to fulfill global broadcast requirements. Based on this method, we provide an approach to compute the expected time to broadcast the message to all nodes. Numerical examples are provided to illustrate the results.
translated by 谷歌翻译
In this paper, we propose a novel 3D graph convolution based pipeline for category-level 6D pose and size estimation from monocular RGB-D images. The proposed method leverages an efficient 3D data augmentation and a novel vector-based decoupled rotation representation. Specifically, we first design an orientation-aware autoencoder with 3D graph convolution for latent feature learning. The learned latent feature is insensitive to point shift and size thanks to the shift and scale-invariance properties of the 3D graph convolution. Then, to efficiently decode the rotation information from the latent feature, we design a novel flexible vector-based decomposable rotation representation that employs two decoders to complementarily access the rotation information. The proposed rotation representation has two major advantages: 1) decoupled characteristic that makes the rotation estimation easier; 2) flexible length and rotated angle of the vectors allow us to find a more suitable vector representation for specific pose estimation task. Finally, we propose a 3D deformation mechanism to increase the generalization ability of the pipeline. Extensive experiments show that the proposed pipeline achieves state-of-the-art performance on category-level tasks. Further, the experiments demonstrate that the proposed rotation representation is more suitable for the pose estimation tasks than other rotation representations.
translated by 谷歌翻译
Open Relation Extraction (OpenRE) aims to discover novel relations from open domains. Previous OpenRE methods mainly suffer from two problems: (1) Insufficient capacity to discriminate between known and novel relations. When extending conventional test settings to a more general setting where test data might also come from seen classes, existing approaches have a significant performance decline. (2) Secondary labeling must be performed before practical application. Existing methods cannot label human-readable and meaningful types for novel relations, which is urgently required by the downstream tasks. To address these issues, we propose the Active Relation Discovery (ARD) framework, which utilizes relational outlier detection for discriminating known and novel relations and involves active learning for labeling novel relations. Extensive experiments on three real-world datasets show that ARD significantly outperforms previous state-of-the-art methods on both conventional and our proposed general OpenRE settings. The source code and datasets will be available for reproducibility.
translated by 谷歌翻译
在本文中,我们描述了一种基于图的算法,该算法使用自我监管的变压器获得的功能来检测图像和视频中的显着对象。使用这种方法,将构成图像或视频的图像贴片组织成一个完全连接的图,其中每对贴片之间的边缘使用变压器学到的功能在补丁之间标记为相似性得分。然后将显着物体的检测和分割作为图形问题配制,并使用经典的归一化切割算法解决。尽管这种方法很简单,但它仍可以在几个常见的图像和视频检测和分割任务上实现最新结果。对于无监督的对象发现,当使用VOC07,VOC12和COCO20K数据集进行测试时,这种方法的优于竞争方法的差距分别为6.1%,5.7%和2.6%。对于图像中无监督的显着性检测任务,此方法将联合(IOU)的交叉分数提高了4.4%,5.6%和5.2%。与当前最新技术相比,与ECSD,DUTS和DUT-OMRON数据集进行测试时。该方法还通过戴维斯,SEGTV2和FBMS数据集为无监督的视频对象分割任务实现了竞争结果。
translated by 谷歌翻译
视觉变压器(VIT)在各种计算机视觉任务中的成功促进了该无卷积网络的不断增长。 VIT在图像贴片上工作的事实使其可能与拼图拼图解决的问题有关,这是一项经典的自我监督的任务,旨在重新排序洗牌的顺序图像贴片回到其自然形式。尽管它很简单,但已证明解决拼图拼图对使用卷积神经网络(CNN)(例如自我监督的特征表示学习,领域的概括和细粒度分类)的任务有帮助。在本文中,我们探索了解决拼图拼图作为图像分类的自我监督的辅助损失,名为Jigsaw-Vit。我们展示了两种修改,可以使拼图优于标准VIT:丢弃位置嵌入和随机掩盖斑块。但是很简单,我们发现拼图vit能够改善标准VIT的概括和鲁棒性,这通常是一种权衡。在实验上,我们表明,在ImageNet上的大规模图像分类中,添加拼图拼图分支比VIT提供了更好的概括。此外,辅助任务还提高了对动物-10n,食物101N和服装的嘈杂标签的鲁棒性,也可以提高对抗性示例。我们的实施可从https://yingyichen-cyy.github.io/jigsaw-vit/获得。
translated by 谷歌翻译
胸部X射线(CXR)图像中的肺结节检测是肺癌的早期筛查。基于深度学习的计算机辅助诊断(CAD)系统可以支持放射线医生在CXR中进行结节筛选。但是,它需要具有高质量注释的大规模和多样化的医学数据,以训练这种强大而准确的CAD。为了减轻此类数据集的有限可用性,为了增加数据增强而提出了肺结核合成方法。然而,以前的方法缺乏产生结节的能力,这些结节与检测器所需的大小属性相关。为了解决这个问题,我们在本文中介绍了一种新颖的肺结综合框架,该框架分别将结节属性分为三个主要方面,包括形状,大小和纹理。基于GAN的形状生成器首先通过产生各种形状掩模来建模结节形状。然后,以下大小调制可以对像素级粒度中生成的结节形状的直径进行定量控制。一条粗到细门的卷积卷积纹理发生器最终合成了以调制形状掩模为条件的视觉上合理的结节纹理。此外,我们建议通过控制数据增强的分离结节属性来合成结节CXR图像,以便更好地补偿检测任务中容易错过的结节。我们的实验证明了所提出的肺结构合成框架的图像质量,多样性和可控性的增强。我们还验证了数据增强对大大改善结节检测性能的有效性。
translated by 谷歌翻译
本文解决了人类运动预测的问题,包括预测未来的身体从历史上观察到的序列构成的构成。尽管其性能,但当前的最新方法依赖于任意复杂性的深度学习体系结构,例如经常性神经网络〜(RNN),变压器或图形卷积网络〜(GCN),通常需要多个培训阶段,等等。超过300万参数。在本文中,我们表明,这些方法的性能可以通过轻巧且纯粹的MLP体系结构超越,并且与几种标准实践(例如用离散的余弦变换代表身体姿势(DCT))相结合时,只有0.14亿个参数,预测关节的残留位移和优化速度作为辅助损失。对人类360万的详尽评估,Amass和3DPW数据集表明,我们的方法(我们将其配置为Simlpe)始终优于所有其他方法。我们希望我们的简单方法可以为社区提供强大的基准,并允许重新考虑人类运动预测的问题,以及当前的基准是否确实需要复杂的建筑设计。我们的代码可在\ url {https://github.com/dulucas/simlpe}上获得。
translated by 谷歌翻译
可以将监督学习视为将相关信息从输入数据中提取到特征表示形式。当监督嘈杂时,此过程变得困难,因为蒸馏信息可能无关紧要。实际上,最近的研究表明,网络可以轻松地过度贴合所有标签,包括损坏的标签,因此几乎无法概括以清洁数据集。在本文中,我们专注于使用嘈杂的标签学习的问题,并将压缩归纳偏置引入网络体系结构以减轻这种过度的问题。更确切地说,我们重新审视一个名为辍学的经典正则化及其变体嵌套辍学。辍学可以作为其功能删除机制的压缩约束,而嵌套辍学进一步学习有序的特征表示W.R.T.特征重要性。此外,具有压缩正则化的训练有素的模型与共同教学相结合,以提高性能。从理论上讲,我们在压缩正则化下对目标函数进行偏置变化分解。我们分析了单个模型和共同教学。该分解提供了三个见解:(i)表明过度合适确实是使用嘈杂标签学习的问题; (ii)通过信息瓶颈配方,它解释了为什么提出的特征压缩有助于对抗标签噪声; (iii)它通过将压缩正规化纳入共同教学而带来的性能提升提供了解释。实验表明,我们的简单方法比具有现实世界标签噪声(包括服装1M和Animal-10N)的基准测试标准的最先进方法具有可比性甚至更好的性能。我们的实施可在https://yingyichen-cyy.github.io/compressfatsfeatnoisylabels/上获得。
translated by 谷歌翻译
快捷方式学习对深度学习模型很常见,但导致了退化的特征表示形式,因此危害了该模型的可推广性和解释性。但是,在广泛使用的视觉变压器框架中的快捷方式学习在很大程度上是未知的。同时,引入特定领域的知识是纠正捷径的主要方法,捷径为背景相关因素。例如,在医学成像领域中,放射科医生的眼睛凝视数据是一种有效的人类视觉先验知识,具有指导深度学习模型的巨大潜力,可以专注于有意义的前景区域。但是,获得眼睛凝视数据是时必的,劳动密集型的,有时甚至是不切实际的。在这项工作中,我们提出了一种新颖而有效的显着性视觉变压器(SGT)模型,以在没有眼神数据的情况下在VIT中纠正快捷方式学习。具体而言,采用计算视觉显着性模型来预测输入图像样本的显着性图。然后,显着图用于散布最有用的图像贴片。在拟议的中士中,图像贴片之间的自我注意力仅集中于蒸馏的信息。考虑到这种蒸馏操作可能会导致全局信息丢失,我们在最后一个编码器层中进一步介绍了一个残留的连接,该连接捕获了所有图像贴片中的自我注意力。四个独立公共数据集的实验结果表明,我们的SGT框架可以有效地学习和利用人类的先验知识,而无需眼睛凝视数据,并且比基线更好。同时,它成功地纠正了有害的快捷方式学习并显着提高了VIT模型的解释性,证明了传递人类先验知识在纠正快捷方式学习方面传递人类先验知识的承诺
translated by 谷歌翻译
时空数据包含丰富的信息,近年来由于许多领域的相关应用程序的快速发展,近年来已广泛研究。例如,医疗机构经常使用与患者不同部位相关的电极来分析具有空间和时间特征富含脑的数据,以进行健康评估和疾病诊断。现有的研究主要使用了深度学习技术,例如卷积神经网络(CNN)或经常性神经网络(RNN)来提取隐藏的时空特征。然而,同时合并相互依存的空间信息和动态时间变化是一项挑战。实际上,对于利用这些时空特征来完成复杂预测任务的模型,它通常需要大量的培训数据才能获得令人满意的模型性能。考虑到上述挑战,我们提出了一个自适应的联合相关性框架,即Fedrel,用于在本文中为时空的图形学习。在将原始时空数据转换为高质量特征之后,框架中的核心动力学间图(DIIG)模块能够使用这些功能来生成能够捕获隐藏拓扑和长期的时空图这些图中的时间相关信息。为了提高模型的概括能力和性能,在保留本地数据隐私的同时,我们还设计了一个相关性驱动的联合学习模块,以利用其模型的细心聚合来利用来自不同参与者的各种数据分布。
translated by 谷歌翻译